El estudio de la Biología requiere conocer las propiedades de los seres vivos, y la investigación científica incluye la medición de estas propiedades. La o el investigador encontrará las siguientes situaciones:
Esto conlleva al menos dos tareas para el/la investigador/a, si quiere llegar a una conclusión con la menor incertidumbre posible: (a) determinar una cantidad “representativa” de individuos de una población (muestra), y (b) estimar numéricamente la variabilidad entre los individuos.
Vemos, entonces, que en el mundo real de los seres vivos (y de los componentes abióticos del mismo), la investigación científica se desarrolla en un marco de variación e incertidumbre. Las estadísticas nos proveen las herramientas matemáticas para poder analizar esa variación e incertidumbre, y tratar de acercarnos a una interpretación de los datos, que permita establecer conclusiones o nuevas rutas de investigación.
Reconocer alguna aplicación de las estadísticas en la investigación biológica.
Discusión Los datos de la epidemia de Covid-19: incertidumbre en su análisis.
Reconocer la importancia de las muestras en las estadísticas
Varias especies de peces, usualmente pescados en grandes cantidades, han visto sus poblaciones disminuidas a niveles, que ya no se consideran comercialmente explotables.
¿Cómo podemos saber que está disminuyendo la cantidad de peces (al menos de algunas especies) en el océano? No sería práctico ir en submarinos a contarlos. Pero podemos obtener información de cuántos pescan por unidad de esfuerzo en los barcos pesqueros. Esto nos ilustra el concepto de población (todos los individuos de una especie en el océano), y una muestra (la cantidad atrapada en una salida de un barco pesquero).
Reconocer y evitar los posibles errores o desviaciones en la selección de una muestra
Los estimados que podemos hacer a partir de una muestra van a depender de que esta sea representativa de la población de origen. Sin embargo, sabemos de la incertidumbre que se produce en esa supuesta representatividad por las diferencias entre los individuos u objetos de la muestra. Dos conceptos nos ayudan a evaluar qué tan buena es una muestra:
Exactitud: una medida de cuán cerca estamos de un estimador representativo de la población (la media, por ejemplo)
Precisión: una medida de cuánto se parecen los valores o mediciones de los individuos u objetos entre sí.
Discusión en grupo: Un amigo, que tiene árboles de aguacate, afirma que los aguacates de Puerto Rico son más grandes que los de la República Dominicana; concluye esto luego de comparar sus aguacates con los importados, que ha comprado en el supermercado.
Con sus conocimientos estadísticos de población y muestra, discuta con su grupo si mi amigo puede hacer esa afirmación o no, y por qué.
Con los ejemplos del libro (1.3, 1.4), aplique el concepto de muestra sesgada. Describa cómo se manifiesta en cada caso.
Example 1.3. Snake Surveys from Road: Herpetologists sometimes estimate snake population size by conducting road surveys where the snakes are much easier to see. The number of snakes spotted crossing the road should be proportional to population size and one might think that sex ratio could be determined this way as well. However, biologists must be careful in how they interpret such data, since this survey technique is dependent on the activity levels of the snakes. For instance, in the spring, nearly all snakes observed crossing the road are adult males. We could be tempted to conclude that this population has very few females, when in fact only the adult males are actively searching for mates! The females are present in the population, but are not fairly represented by this biased survey technique.
Example 1.4 Rabbit Growth Hormone: A large laboratory colony of rabbits was used as a source of growth hormone, extracted from blood samples. A lab assistant captured some of the rabbits, but didn’t notice that young rabbits were easier to catch than older rabbits. We now know that the concentration of growth hormone declines with the age of the rabbit. The resulting extracts were higher in growth hormone than they should have been. Only later did the scientist in charge discover that he was obtaining a biased sample of growth hormone measurements.
Havel, John E.. Introductory Biological Statistics (p. 4). Waveland Press, Inc.. Kindle Edition.
Example 1.2. Salt Concentration: A chemistry instructor mixed a salt solution (NaCl) and knows the correct concentration of salt, say 10.00 g per liter. Suppose a student does three gravimetric determinations and finds the following answers: 9.50, 9.52, and 9.48 g per liter.
Aplicar una metodología para obtener muestras aleatorias
- Asignarle un número entero a cada unidad (individuo o posición) en la población (1, 2, 3, …, N)
- Decidir cuántas unidades serán colectadas por muestra. El tamaño de esta muestra será n.
- Utilizar un método para generar números al azar entre 1 y N. Uso de Tabla de Números Aleatorios o mediante computadora.
- Tomar las unidades que corresponden a los números generados. Estos individuos serán los medidos o tratados en esa muestra.
Selección de estudiante para presentar: Quiero seleccionar al azar dos estudiantes para realizar una presentación. Utilizando la lista de estudiantes, ordenada alfabéticamente, asignamos un número a cada individuo. Vamos a usar un generador de números al azar de R (¿es realmente al azar?) para obtener dos números del conjunto de estudiantes numerados.
# función sample con parámetros (min:max, n, reemplazo)
sample(1:30, 2, replace = F)
## [1] 5 16
¿Qué puede ocurrir si replace = T?
Selección de plantas en una siembra: De una siembra de girasoles queremos tomar una muestra aleatoria de 30 plantas, para un análisis de los aceites de las semillas.
siembra de girasoles
Como es una siembra con distribución regular de las plantas, podemos construir un mapa de la ubicación de cada planta, en el que cada cuadrito representa una planta:
mapa de las plantas de girasol
Generamos 30 pares de números que representan las coordenadas X-Y de cada planta en el mapa:
# coordenada X
coor.x <- sample(1:30, 30, replace = T)
# coordenada Y
coor.y <- sample(1:20, 30, replace = T)
# unimos las coordenadas
coord.girasol <- data.frame(coor.x, coor.y)
coord.girasol
## coor.x coor.y
## 1 10 3
## 2 21 2
## 3 24 17
## 4 20 11
## 5 1 13
## 6 17 17
## 7 15 4
## 8 12 4
## 9 7 8
## 10 29 15
## 11 16 5
## 12 25 12
## 13 21 13
## 14 19 11
## 15 30 19
## 16 16 14
## 17 12 12
## 18 5 1
## 19 18 18
## 20 25 7
## 21 5 5
## 22 14 8
## 23 9 11
## 24 19 3
## 25 23 3
## 26 11 14
## 27 10 19
## 28 13 8
## 29 27 13
## 30 10 3
¿Por qué utilizamos replace=T? ¿Se pueden producir coordenadas repetidas?